期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 面向民国档案印章分割的改进U-Net
杨有, 张汝荟, 许鹏程, 康慷, 翟浩
《计算机应用》唯一官方网站    2023, 43 (3): 943-948.   DOI: 10.11772/j.issn.1001-9081.2022020218
摘要274)   HTML5)    PDF (1722KB)(97)    收藏

精准分割民国档案图像中的印章,有助于该类档案的智慧应用。针对民国档案印侵严重和过多噪声的问题,提出用于印章分割的网络UNet-S。该网络在保留U-Net的编解码器结构和跳跃连接的基础上从三个方面进行改进:一是使用多尺度残差模块替代U-Net原有的卷积层,使UNet-S既能有效提取多尺度特征,又能避免网络退化和梯度爆炸等问题;二是在多尺度残差模块中将普通卷积替换为深度可分离卷积(DSConv),大幅减少网络的参数量;三是使用BCEDiceLoss并根据仿真实验结果优选权重因子,以解决民国档案数据不平衡的问题。实验结果表明,相较于U-Net、DeepLab v2等网络,UNet-S的Dice相似系数(DSC)、平均交并比(mIoU)、平均像素准确率(MPA)取得了最优结果,最多提高了17.38%、32.68%和0.6%,参数量最多下降了76.64%。可见,UNet-S在民国档案数据集中分割效果更佳。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 专利新词发现的双向聚合度特征提取新方法
陈梅婕, 谢振平, 陈晓琪, 许鹏
计算机应用    2020, 40 (3): 631-637.   DOI: 10.11772/j.issn.1001-9081.2019071193
摘要397)      PDF (772KB)(364)    收藏
针对通用新词发现方法对专利长词识别效果不佳、专利术语词性搭配模板的灵活性不高,以及缺乏对中文专利长词识别的无监督方法的问题,提出了一种发现专利新词的双向聚合度特征提取新方法。首先,以词中组分的双向条件概率统计信息为基础,构造提出了一个二元词上的双向聚合度统计特征;其次,利用此特征扩展提出了词边界筛选规则;最后,基于新特征和词边界规则实现专利新词的提取。实验结果表明,新方法在整体F-测度值方面,与通用领域新词发现方法相比,提高了6.7个百分点,与两种最新的专利词性搭配模板方法相比,分别提高了19.2个百分点和17.2个百分点,并且较为显著地提高了4~8字专利新词发现的F-测度值。综合地,所提出的方法提升了专利新词发现性能,并且能够更有效地提取专利文本中具有复合形式的长词,同时可以减少对预先训练过程和额外复杂规则库的依赖,具备更好的实用性。
参考文献 | 相关文章 | 多维度评价